National Repository of Grey Literature 5 records found  Search took 0.00 seconds. 
Classification on unbalanced data
Hlosta, Martin ; Popelínský, Lubomír (referee) ; Štěpánková,, Olga (referee) ; Zendulka, Jaroslav (advisor)
Tématem této disertační práce je klasifikace daty s nevyváženými daty. Jedná se o oblast strojového, jejímž cílem je řešit problémy, které plynou z toho, že jedna ze tříd je v datech zastoupena výrazně méně než třída druhá. Minoritní třída má často větší význam a tradiční metody upřednostňující majoritní třídu nedosahují dobrých výsledků na třídě minoritní. Dvě aplikační domény motivovaly výzkum a vedly na identifikaci dvou specifických, dosud neřešených problémů.  V první z nich vedlo omezení kladené na minimální požadovanou přesnost na minoritní třídě v počítačové bezpečnosti na formulaci úlohy klasifikace s omezením. Navrhl jsem metodu, která kombinuje upravenou verzi logistické regrese a stochastické algoritmy, které vždy vylepšily výsledky logistické regrese.Druhou je doména analýzy učení (Learning Analytics), která motivovala definici problému predikce splnění cíle, jenž má specifikovaný termín splnění. Byl představen koncept sebe-učení (Self-Learning), kdy trénování modelu probíhá díky jedincům, kteří tento cíl splní předčasně. Díky malému počtu jedinců splňujících úlohu na začátku je problém silně nevyvážený, ale nevyváženost klesá směrem k termínu splnění. Na problému identifikace rizikových studentů distanční univerzity bylo ukázáno, že (1) takový koncept dává lepší výsledky než specifikovaná základna (baseline), (2) a že metody pro vypořádání se s nevyvážeností, které neberou v potaz informaci o doméně, nevedly k velkým zlepšením. Evaluace ukázala, že metody založené na znalosti domény v rozšířené verzi pro Self-Learning vylepšily klasifikaci více než běžné metody pro vypořádání se s nevyvážeností a že znalost příčiny nevyváženosti může vést k lepším výsledkům.
Machine Learning Methods in Payment Card Fraud Detection
Sinčák, Jan ; Baruník, Jozef (advisor) ; Vácha, Lukáš (referee)
Protection of clients from fraudulent transactions is a complicated task. Banks tend to rely on rule-based systems which require manual creation of rules to identify fraud. These rules have to be set up by employees of the bank who need to look for any trends in fraudulent transactions themselves. This thesis deals with the problem of detection of fraudulent card transactions as it com- pares multiple machine learning models for fraud detection. These models can find complex relationships in the data and potentially outperform standard fraud detection systems, Logistic regression, neural network, random forest, and extreme gradient boosting (XGBoost) models are trained on a simulated dataset that closely follows properties of real card transactions. Performance of the models is measured by sensitivity, specificity, precision, AUC, and time to predict on the testing dataset. XGBoost shows the highest performance among the tested models. It is then compared to a standard fraud detection system used in a Czech bank. The bank system achieves higher specificity but XGBoost still shows promising performance. It is possible that certain machine learning models could outperform today's fraud detection systems if they are well-tuned. JEL Classification G21, K42 Keywords machine learning, card fraud, fraud...
Classification on unbalanced data
Hlosta, Martin ; Popelínský, Lubomír (referee) ; Štěpánková,, Olga (referee) ; Zendulka, Jaroslav (advisor)
Tématem této disertační práce je klasifikace daty s nevyváženými daty. Jedná se o oblast strojového, jejímž cílem je řešit problémy, které plynou z toho, že jedna ze tříd je v datech zastoupena výrazně méně než třída druhá. Minoritní třída má často větší význam a tradiční metody upřednostňující majoritní třídu nedosahují dobrých výsledků na třídě minoritní. Dvě aplikační domény motivovaly výzkum a vedly na identifikaci dvou specifických, dosud neřešených problémů.  V první z nich vedlo omezení kladené na minimální požadovanou přesnost na minoritní třídě v počítačové bezpečnosti na formulaci úlohy klasifikace s omezením. Navrhl jsem metodu, která kombinuje upravenou verzi logistické regrese a stochastické algoritmy, které vždy vylepšily výsledky logistické regrese.Druhou je doména analýzy učení (Learning Analytics), která motivovala definici problému predikce splnění cíle, jenž má specifikovaný termín splnění. Byl představen koncept sebe-učení (Self-Learning), kdy trénování modelu probíhá díky jedincům, kteří tento cíl splní předčasně. Díky malému počtu jedinců splňujících úlohu na začátku je problém silně nevyvážený, ale nevyváženost klesá směrem k termínu splnění. Na problému identifikace rizikových studentů distanční univerzity bylo ukázáno, že (1) takový koncept dává lepší výsledky než specifikovaná základna (baseline), (2) a že metody pro vypořádání se s nevyvážeností, které neberou v potaz informaci o doméně, nevedly k velkým zlepšením. Evaluace ukázala, že metody založené na znalosti domény v rozšířené verzi pro Self-Learning vylepšily klasifikaci více než běžné metody pro vypořádání se s nevyvážeností a že znalost příčiny nevyváženosti může vést k lepším výsledkům.
A machine learning method for incomplete and imbalanced medical data
Salman, I. ; Vomlel, Jiří
Our research reported in this paper is twofold. In the first part of the paper we use\nstandard statistical methods to analyze medical records of patients suffering myocardial\ninfarction from the third world Syria and a developed country - the Czech Republic.\nOne of our goals is to find whether there are statistically significant differences between\nthe two countries. In the second part of the paper we present an idea how to deal with\nincomplete and imbalanced data for tree-augmented naive Bayesian (TAN). All results\npresented in this paper are based on a real data about 603 patients from a hospital in\nthe Czech Republic and about 184 patients from two hospitals in Syria.

Interested in being notified about new results for this query?
Subscribe to the RSS feed.